Optimización estable de políticas con convexidad de logits
Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.
Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.
SpeedAug acelera políticas robóticas con RL: aumenta 1.8x el rendimiento en solo 16 minutos de interacción sin comprometer la tasa de éxito.
Descubre CoLoRA, un método que aprovecha la similitud entre tareas para mejorar el ajuste fino de modelos fundacionales con pocos datos.
Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.
Descubre por qué el error por grupo predice mejor el rendimiento real que el MSE total en el ajuste fino de modelos VLA para robots manipuladores móviles de 11 GDL.
Descubre cómo el aprendizaje por refuerzo inverso mejora la eficiencia de modelos de comportamiento robótico, logrando tasas de éxito superiores al 90% en tareas complejas de manipulación.
Descubre cómo el tamaño de lote es el factor oculto que sesga la evaluación de LoRA. Optimízalo para mejores resultados.
Descubre cómo DrPO optimiza modelos generativos de un paso sin necesidad de gradientes de recompensa, mejorando la alineación y reduciendo el costo computacional.
Descubre CRMA: ajuste fino secuencial de LLMs sin olvido catastrófico, mejorando rendimiento en tareas previas. Sin buffers, sin destilación.
Aprende cómo las correlaciones espurias en VLM crean un espejismo de seguridad y cómo el desaprendizaje reduce ataques y rechazos innecesarios.
DataShield identifica eficientemente muestras que degradan seguridad en el ajuste benigno de LLMs. Protege tus modelos con esta innovadora solución.
Ajuste fino justo reduce ataques de inferencia de distribución. Conoce el vínculo entre equidad y privacidad en modelos de IA.
Descubre cómo el ajuste fino eficiente con adaptadores y LoRA logra segmentar instancias con solo 1-6% de parámetros, manteniendo rendimiento. ¡Optimiza!
Los adaptadores CP ofrecen pasos de parámetros 21 veces más finos que LoRA. ¿Mejoran la precisión? Estudio controlado en OPT-1.3B revela resultados según la tarea.
Descubre cómo logramos el 4° puesto en PsyDefDetect 2026 usando Qwen3-8B con ajuste fino consciente del desbalance, aumentando el F1 macro un 24.4% sobre la línea base.
GuidaPA: chatbot privado para administración pública con aprendizaje federado. Obtén alta calidad sin centralizar datos. ¡Descubre cómo!
RoleCDE es el primer benchmark que mide cómo los agentes de rol resuelven dilemas entre valores específicos y alineación. ¡Aprende a mitigar el desacople de roles!
Descubre cómo ZO-Finetuner optimiza el ajuste de LLMs sin retropropagación, reduciendo el uso de memoria y mejorando el rendimiento en múltiples tareas.
Descubre cómo restaurar el rápido decaimiento de valores singulares mejora la eficiencia del ajuste fino privado de LLMs con DP-SGD, sin comprometer privacidad.
Descubre Go-UT-Bench, dataset para ajustar LLMs que mejora tests unitarios en Go. Modelos ajustados superan en más del 75% a los base. ¡Optimiza!